Изследователите на изкуствен интелект, засегнати от потока от „помия“
Изследователите на изкуствен интелект се борят с главен проблем в своята област: по какъв начин да спрат така наречен „ AI мръсотия “ да навреди на доверието в научната работа на промишлеността.
Конференциите за изкуствен интелект побързаха да лимитират потреблението на огромни езикови модели за писане и рецензиране на публикации през последните месеци, откакто бяха заляти от вълна на неприятно наличие, написано от AI.
Учените предизвестиха, че повишаването на нискокачествени материали, генерирани от AI, рискува да подкопае доверието и честността на проучванията в бранша посредством въвеждане на погрешни изказвания и измислено наличие.
„ Има малко подигравка във обстоятелството, че има толкоз доста възторг за AI, оформящ други области, когато в реалност нашата област е минала през този безреден опит заради необятното потребление на AI “, сподели Inioluwa Deborah Raji, откривател на AI в Калифорнийския университет, Бъркли.
Последните изследвания подчертаха разпространяването на технологията в AI. проучвания. През август изследване на Станфордския университет откри, че до 22 % от документите по компютърни науки съдържат потребление на LLM.
Анализ на започващата компания Pangram пресметна, че 21 % от рецензиите на влиятелната Международна конференция за показване на образование (ICLR) през 2025 година са били напълно генерирани от AI, а повече от половината от тях са включвали потребление на AI, като да вземем за пример редактиране. От изпратените документи компанията откри, че 9 % имат повече от половината от наличието, генерирано от AI.
През ноември рецензенти в ICLR маркираха документ, за който се подозира, че е генериран от изкуствен интелект, който попадна в топ 17 % от отчетите въз основа на оценки от рецензенти.
През януари започващата компания за разкриване на изкуствен интелект GPTZero разгласява проучване, което откри, че има над 100 неточности, генерирани от изкуствен интелект, в 50 отчета предходната година на конференцията Neural Information Processing Systems (NeurIPS), считан за най-престижното място за издание на авангардни проучвания на AI.
Нарастващите опасения по отношение на метода, по който изследователската общественост употребява технологията, накараха ICLR да актуализира своите насоки за потребление на AI преди конференцията. Това включва предизвестието, че документите, които не разкриват „ необятно “ потребление на LLM, ще бъдат отхвърлени.
Изследователи, които употребяват LLM за основаване на рецензии с ниско качество на публикации, също ще бъдат глобени, което може да включва отвод на техните лични проучвания.
„ Ако публикувате публикации с в действителност ниско качество, които са просто неверни, за какво обществото би трябвало да ни има вяра като учени? “ сподели Хани Фарид, професор по компютърни науки в Калифорнийския университет в Бъркли.
Увеличаването на броя на документите, създадени от откриватели на AI, беше изключително явно предходната година, споделят специалисти.
Конференцията NeurIPS съобщи, че е получила 21 575 поръчки през 2025 година, по отношение на 17 491 през 2024 година и 9 467 през 2020 година Един създател е написал повече от 100 публикации в NeurIPS, което е доста повече, в сравнение с нормално прави междинният откривател.
Също по този начин има доста нарастване на научните публикации, свързани с компютърните науки, в arXiv, гратис онлайн вместилище, съгласно Томас Г. Дитрих, почетен професор по компютърни науки в Орегонския държавен университет, който също по този начин управлява секцията по компютърни науки на arXiv.
Въпреки това учените от ИИ споделят, че е мъчно да се каже дали повишаването се дължи на потреблението на LLMs или на по-активни откриватели в региона. Откриването на наличие, генерирано от изкуствен интелект, остава мъчно заради неналичието на стандарти или способи за надеждно анализиране на документи в цялата промишленост.
Издайнически знак е, когато документите съдържат халюцинирани препратки в библиографията или числа, които са неверни, сподели Дитрих. След това на тези консуматори им е неразрешено да изпращат документи в arXiv за известно време, добави той.
Някои специалисти по изкуствен интелект настояват, че необятното потребление на LLM, подхранвано от търговски тласъци, е довело до това откривателите да се съсредоточат върху количеството, а не върху качеството. Критиците споделят, че проучванията на AI имат просвета да се пробват да разгласяват допустимо най-вече публикации, което е предиздвикало някои учени да подхващат директни пътища.
„ Когато имаме тези моменти на необикновено впечатляващи демонстрации, необикновено високи заплати и тези компании просто полудяват, това просто притегля поток от външни ползи “, сподели Раджи.
Експертите споделят, че има доста законни способи за потребление на AI принадлежности за проучвания, да вземем за пример като асистенти за мозъчна офанзива и коректори.
„ Качеството на писане в документите от Китай се е повишило фрапантно и допускам, че това е по този начин, тъй като LLM са доста положителни в пренаписването на британски, с цел да го създадат свободен “, сподели Дитрих.
Но въпросът по какъв начин да се употребява технологията става все по-голям, защото компании като Гугъл, Anthropic и OpenAI разпространяват своите модели като „ съучени “, които могат да оказват помощ за ускорение на проучванията в области като науките за живота.
Като част от приспособяването на своите модели за научни проучвания, групите с ИИ нормално ги образоват на набори от данни, извлечени от университетски източници. Но в случай че това включва увеличаващи се количества документи, генерирани от AI, това може да докара до нежелани резултати, като утежняване на продуктивността на модела, сподели Фарид.
Предишни проучвания демонстрират, че LLM са склонни да се „ срутват “ и да създават глупости, когато наборът от данни съдържа прекалено много неподготвени данни, генерирани от AI, което понижава разнообразието от неща, от които един AI модел може да се учи.
„ Има . . стимул за AI фирмите, които излизат безсистемно да изтриват всичко, с цел да желаят да знаят, че тези неща [документи] в действителност не са генерирани от AI “, сподели Фарид.
Кевин Уейл, началник на науката в OpenAI, означи, че LLM са същите като всеки инструмент и би трябвало да се употребяват отговорно. „ Това може да бъде солиден ускорител, който може да ви помогне да изследвате нови области “, сподели Уейл. " Но би трябвало да го ревизирате. Това не ви освобождава от суровост. "